AIシステムに対するRed Team演習の挑戦
https://scrapbox.io/files/66a30d78f6e1af001d58b929.png
概要
本投稿では、AIシステムをテストするために使用したRed Teamアプローチのサンプルから得られた知見について詳しく説明します。この実践を通じて、特定の状況で適切なツールを選択し、各アプローチに関連する利点と課題についての経験的データを収集し始めました。この投稿が、AIシステムのRed Team演習を試みる他の企業、Red Team演習の実際の仕組みに興味のある政策立案者、そしてAI技術のRed Team演習を行いたい組織にとって役立つことを願っています。
Red Team演習とは何か?
Red Team演習は、AIシステムの安全性とセキュリティを向上させるための重要なツールです。これは、潜在的な脆弱性を特定するために技術システムを敵対的にテストすることを含みます。今日、研究者やAI開発者は、AIシステムをテストするために幅広いRed Team演習技術を採用しており、それぞれに独自の利点と欠点があります。
AIのRed Team演習の標準化された実践の不足が、状況をさらに複雑にしています。開発者は同じタイプの脅威モデルを評価するのに異なる技術を使用する可能性があり、同じ技術を使用する場合でも、Red Team演習の実施方法が実際には大きく異なる可能性があります。この一貫性の欠如により、異なるAIシステムの相対的な安全性を客観的に比較することが困難になります。
hiroya_iizuka.icon こういう課題があるのか。Red Team演習の標準化がなされていない。
これに対処するために、AI分野は体系的なRed Team演習のための確立された実践と基準を必要としています。私たちは、組織が今日のリスクを管理し、モデルが大幅に能力を向上させたときに将来の脅威を軽減する準備ができるように、今この作業を行うことが重要だと考えています。
hiroya_iizuka.icon 重要だね
この目標に貢献するために、私たちが探求したRed Team演習方法の一部の概要を共有し、定性的なRed Team演習から自動化された評価の開発まで、これらを反復プロセスに統合する方法を示します。最後に、政策立案者が強力なAIテストエコシステムを育成するために取ることができる推奨アクションのセットで締めくくります。
本投稿で取り上げるRed Team演習方法:
領域固有の専門家によるRed Team演習
Trust & Safety: ポリシー脆弱性テスト
国家安全保障: フロンティア脅威のRed Team演習
地域固有: 多言語・多文化Red Team演習
言語モデルを使用したRed Team演習
自動化されたRed Team演習
新しいモダリティでのRed Team演習
マルチモーダルRed Team演習
オープンエンドで一般的なRed Team演習
一般的な危害に対するクラウドソーシングされたRed Team演習
一般的なリスクとシステムの限界に対するコミュニティベースのRed Team演習
以下のセクションでは、これらのRed Team演習方法それぞれについて取り上げ、それらが提示するユニークな利点と課題を検討します(概説する利点と課題の一部は、Red Team演習方法全体に適用される可能性があります)。
領域固有の専門家によるチーム演習
高レベルでは、領域固有の専門家によるチーム演習には、主題の専門家と協力して、彼らの専門分野内のAIシステムにおける潜在的な脆弱性やリスクを特定し評価することが含まれます。専門家を起用することで、複雑で文脈依存の問題についてより深い理解をもたらします。
Trust & Safetyリスクに対するポリシー脆弱性テスト
人々に深刻な危害を与えたり、社会に悪影響を及ぼしたりするような高リスクの脅威には、洗練されたRed Team方法と外部の主題専門家との協力が必要です。Trust & Safety分野では、「ポリシー脆弱性テスト」(PVT)と呼ばれる形式のRed Team演習を採用しています。
PVTは、Anthropicの利用規約でカバーされているさまざまなポリシートピックについて、外部の主題専門家と協力して実施する詳細な定性的テストの形式]です。私たちは、 児童の安全に関する問題についてはThorn
選挙の完全性についてはInstitute for Strategic Dialogue
過激化についてはGlobal Project Against Hate and Extremism
などの専門家と協力しています。
https://scrapbox.io/files/66a4850c3fe677001dd7de20.png
国家安全保障リスクに対するフロンティア脅威のRed Team演習
国家安全保障リスクに対するAIシステムのRed Teamアプローチに関するブログ投稿を公開して以来、「フロンティア脅威」(国家安全保障に重大なリスクをもたらす可能性のある領域)を測定するための評価技術、および私たちのシステムのRed Team演習に深い主題の専門知識をもたらす外部パートナーシップの構築を続けてきました。
私たちのフロンティアRed Team演習作業は主に、化学・生物・放射線・核(CBRN)、サイバーセキュリティ、および自律型AIリスクに焦点を当てています。これらの領域の専門家と協力して、システムのテストと新しい評価方法の共同設計を行っています。脅威モデルに応じて、外部のRed Teamは「現実世界」の設定でリスクを調査するために私たちの標準的な展開版のClaudeを使用したり、異なるリスク軽減セットを使用する非商用版で作業したりする場合があります。 https://scrapbox.io/files/66a484febd050b001deb3aa5.png
多言語・多文化Red Team演習
私たちのRed Team演習作業の大部分は英語で行われ、通常はアメリカ合衆国を拠点とする人々の視点から行われています。この代表性の欠如をより良く理解し、理想的には対処するための1つの方法は、他の言語や文化的文脈でRed Team演習を行うことです。公共部門が主導する能力構築の取り組みは、地域の人々がAIシステムの言語スキルと特定のコミュニティに関連するトピックをテストすることを奨励できます。
一例として、シンガポールのInfocomm Media Development Authority (IMDA)およびAI Verify Foundationと協力して、4つの言語(英語、タミル語、中国語、マレー語)とシンガポールの聴衆およびユーザーベースに関連するトピックにわたるRed Team演習プロジェクトに参加できたことを嬉しく思います。IMDAとAI Verify Foundationがこの作業とRed Team演習からの知見についてさらに公表することを楽しみにしています。
https://scrapbox.io/files/66a4855215d8f5001dcb399f.png
言語モデルを使用したRed Team演習
言語モデルを使用したRed Team演習には、AIシステムの能力を活用して、敵対的な例を自動的に生成し、他のAIモデルの堅牢性をテストすることが含まれ、手動テストの取り組みを補完し、より効率的で包括的なRed Team演習を可能にする可能性があります。
自動化されたRed Team演習
モデルがより高性能になるにつれて、手動テストを補完するために、モデル自体が実行する自動化されたRed Team演習を使用する方法に興味を持っています。具体的には、有害な行動を減らすためにRed Team演習がどれほど効果的であるかを理解したいと考えています。これを行うために、ターゲットの行動を引き出す可能性の高い攻撃を生成するためにモデルを使用し(Red Team)、次にそれらのRed Team演習の出力に基づいてモデルを微調整して、同様のタイプの攻撃に対してより堅牢にする(青チーム)というRed Team/青チームのダイナミクスを採用します。このプロセスを繰り返し実行して、新しい攻撃ベクトルを考案し、理想的には、さまざまな敵対的攻撃に対してシステムをより堅牢にすることができます。
https://scrapbox.io/files/66a4865205c2f5001c756162.png
新しいモダリティでのRed Team演習
新しいモダリティでのRed Team演習には、さまざまな形式の入力(画像や音声など)を処理し応答できるAIシステムをテストすることが含まれ、これらの拡張された機能に関連する新しいリスクと失敗モードを、システムが展開される前に特定するのに役立ちます。
マルチモーダルRed Team演習
Claude 3ファミリーのモデルはマルチモーダルです - 画像は生成しませんが、視覚情報(例: 写真、スケッチ、グラフ)を取り込み、それに応答してテキストベースの出力を提供できます。この機能は、潜在的な新しいリスク(例: 詐欺行為、児童の安全への脅威、暴力的過激主義など)をもたらします。Claude 3を展開する前に、Trust & SafetyチームはRed Team演習を行い、画像とテキストベースのリスクについてシステムをテストし、また外部のRed Teamと協力して、有害な入力(画像とテキストの両方)との関与をモデルがどの程度拒否するかを評価しました。展開前のRed Team演習は、特に新しいモデル機能とモダリティを含むリリースにとって重要です。
https://scrapbox.io/files/66a486bccf94ad001d49bb5c.png
オープンエンドで一般的なRed Team演習
一般的な危害に対するクラウドソーシングされたRed Team演習
2022年半ばにRed Team演習の研究努力を開始したとき、セキュリティの脆弱性についてソフトウェアシステムのRed Team演習に関する大量の文献がありましたが、言語モデルのRed Team演習の基準はほとんどありませんでした。ここでの作業は純粋に研究能力で行われました(まだAIアシスタントのClaudeをリリースしていませんでした)。そのため、クラウドワーカーと厳密に制御された環境で作業し、特定の脅威に対してRed Team演習を行うよう依頼するのではなく、自身の判断とリスク許容度で攻撃タイプを使用するよう依頼することを選択しました。
一般的なリスクとシステムの限界に対するコミュニティベースのRed Team演習
AIモデルのRed Team演習がより一般的になるにつれて、DEF CONのAI Villageのような取り組みは、公に展開されたシステムのテストに社会のより広範な横断面を関与させています。2023年には、Generative Red Teaming (GRT) Challengeが、非技術的なバックグラウンドを持つ多くの個人を含む幅広い年齢と分野から数千人の参加者を集め、AnthropicやPadmrp他の研究所が提供するモデルのRed Team演習に招待しました。Red Teamが挑戦に持ち込んだ熱意と創造性に感銘を受け、GRT challengeやそれに類似したイベントが、より多様なグループの人々をAI安全性の取り組みに関与させる刺激になることを願っています。
https://scrapbox.io/files/66a487573dab29001d014cf1.png
これらの多様なRed Team演習方法を探究し、それぞれに独自の強みと課題があることを確認したところで、これらがAI業界でより標準化されたRed Team演習の実践を確立するという目標にどのように貢献できるかを議論します。
定性的Red Team演習から定量的評価へどのように移行するか?
上記のRed Team演習の実践は、潜在的なリスクを明らかにすることに加えて、自動化された定量的評価方法を構築するための前駆体として機能する可能性があります。これはRed Team演習分野のメタ課題です: Red Team演習の結果を、Red Team演習を受けている組織に複合的な価値を生み出すものに変換するにはどうすればよいでしょうか? 理想的には、Red Team演習は、さまざまなリスクについてAIモデルを評価し(手動と自動化された技術の両方を使用して)、対応する軽減策を実装し、それらの保護策の有効性をテストするという反復ループの一部です。
プロセスの始めに、主題の専門家は潜在的な脅威モデルの明確に表現された説明を作成し、その後AIモデルをアドホックな方法でプローブして、前述の脅威を引き出そうとします。Red Teamerは問題空間についてより深い感覚を発展させるにつれて、Red Team演習の実践を標準化し、有害な行動をより効果的に引き出すために入力を修正し始めます。
そこから、言語モデルを使用して、それらの入力の数百または数千のバリエーションを生成し、より広範囲をカバーし、それを少ない時間で行うことができます。このプロセスを通じて、アドホックで定性的な人間によるテストから、より徹底的で定量的で自動化されたテストへと移行します。私たちは、この反復的アプローチを採用して、国家安全保障リスクに関するフロンティア脅威のRed Team演習作業や、選挙の完全性リスクに関するポリシー脆弱性テストにおいて、スケーラブルな評価を開発してきました。そして、他の脅威モデルにも適用することを楽しみにしています。
政策提言
Red Team演習のさらなる採用と標準化を支援するために、政策立案者に以下の提案を検討することを推奨します:
1. 国立標準技術研究所(NIST)のような組織に資金を提供し、AIシステムを安全かつ効果的にRed Team演習する方法に関する技術標準と共通実践を開発する。
2. 開発者と協力してさまざまな領域での潜在的リスクについてシステムのRed Team演習を行うことができる、独立した政府機関や非営利組織の開発と継続的な運営に資金を提供する。例えば、国家安全保障に関連するリスクについては、必要な専門知識の多くが政府機関内に存在するでしょう。
3. プロフェッショナルなAI Red Team演習サービス市場の発展と成長を奨励し、共有された技術標準に従ってAI Red Team演習を行う組織の認証プロセスを確立する。
4. AI企業が、審査済み(そして最終的には認証された)外部グループによる彼らのAIシステムの第三者Red Team演習を許可し、促進することを奨励する。安全で安心な条件下でこれを可能にするための透明性とモデルアクセスの基準を開発する。
5. AI企業に、Red Team演習の実践を、新しいモデルの開発や公開の継続のために満たさなければならない条件に関する明確な方針(例えば、責任あるスケーリングポリシーなどのコミットメントの採用)と結びつけることを奨励する。
結論
Red Team演習は、AIシステムのリスクを特定し軽減するための貴重な技術です。本投稿で取り上げたさまざまなRed Team演習方法は、異なるユースケースと脅威モデルに利用可能な技術の一部を強調しています。私たちは、これらの技術を反復し、安全性テストの共通基準に向けて作業するために、他のアクターと協力することを楽しみにしています。Red Team演習に投資することで、社会にとって安全で有益なAIシステムの構築に向けて取り組むことができます。これは、AIが思慮深く開発され、堅固な保護措置が整備されることを確保するためのより大きな取り組みにおける複数のツールの1つです。